Apache Hadoop

Apache Hadoop
Информация
АвторДъг Кътинг, Майк Кафарела
РазработчикФондация Апачи софтуер
Програмен езикJava
Операционна системамеждуплатформен софтуер
ЛицензApache License 2.0
Уебсайтhadoop.apache.org
Apache Hadoop в Общомедия

Apache Hadoop е набор от инструменти с отворен код, които улесняват използването на мрежа от много компютри за разрешаването на проблеми, включващи огромно количество данни и изчисления. Предоставя софтуерна рамка за разпределено съхранение и обработване на big data чрез програмния модел MapReduce. Hadoop първоначално е проектиран през 2006 г. за работа с компютърни клъстери, съставени от хардуер за широкото потребление,[1] но по-късно започва да се използва и сред по-високопроизводителните системи.[2][3] Всичките модули в Hadoop са проектирани с презумпцията, че хардуерните повреди са често срещано явление и фреймуъркът следва да се справя с тях автоматично.[4]

Ядрото на Apache Hadoop е съставено от част за съхранение (Hadoop Distributed File System – HDFS) и част за обработка (MapReduce). Софтуерът разделя файловете на големи блокове и ги разпределя по членовете на клъстера. След това прехвърля пакетиран код (JAR) по членовете, който да обработва паралелно данните. Този подход се възползва от референтната локалност,[5] при която машините работят върху данните, до които имат достъп. Това позволява наборът от данни да бъде обработен по-бързо и по-ефикасно, отколкото иначе би било възможно с конвенционалната архитектура на суперкомпютрите, която разчита на паралелната файлова система, където изчисленията и данните се разпределят чрез високоскоростна мрежова инфраструктура.[6][7]

Софтуерната рамка на Hadoop е написана главно на Java с някои части на C.

  1. Judge, Peter. Doug Cutting: Big Data Is No Bubble // 22 октомври 2012. Посетен на 11 март 2018.
  2. Woodie, Alex. Why Hadoop on IBM Power // Datanami, 12 май 2014. Посетен на 11 март 2018.
  3. Hemsoth, Nicole. Cray Launches Hadoop into HPC Airspace // 15 октомври 2014. Посетен на 11 март 2018.
  4. Welcome to Apache Hadoop! // Посетен на 25 август 2016.
  5. What is the Hadoop Distributed File System (HDFS)? // IBM. Посетен на 12 април 2021.
  6. Data Locality: HPC vs. Hadoop vs. Spark // Data Science Association, 19 септември 2014. Посетен на 30 октомври 2014.
  7. Characterization and Optimization of Memory-Resident MapReduce on HPC Systems // 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE, октомври 2014. ISBN 978-1-4799-3800-1. DOI:10.1109/IPDPS.2014.87. с. 799 – 808.

Developed by StudentB